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An alternative to Stata 

Using R for estimation of Regression Models 


Resumen 

RegUtils es un paquete implementado para el entorno y lenguaje de programación R, 
que contiene un conjunto de funciones destinadas a facilitar el uso de este software 
como una alternativa al software comercial Stata para la estimación de Modelos de 
Regresión. Las funciones aquí implementadas, están pensadas para facilitar la migración 
de modelos estimados en Stata al software R, utilizando una sintaxis en muchos sentidos 
equivalente a la de los comandos de Stata, pero que al mismo tiempo sea compatible 
con paquetes relevantes de R y los paradigmas de programación en R. 
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Abstract 

RegUtils is a package implemented for the environment and programming language R, 
which contains a set of functions to facilítate the use of this software as an alternative 
to commercial software Stata for estimating regression models. Functions within 
this package are designed to help with the migration of models developed in Stata 
to R. These are constructed keeping a syntax equivalent to Stata counterparts, while 
maintaining compatibility with R relevant packages and programming paradigms. 

Keywords: RegUtils package, Stata, R, migration models. 
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INTRODUCCIÓN 


El análisis estadístico en general, y en particular, la estimación de regresiones lineales 
y no lineales, como muchas otras áreas, se apoya en la actualidad en el uso de 
herramientas computacionales para este análisis. Dos de las herramientas más 
usadas son: RyStata. Estas facilitan, entre otras cosas, el uso de procesos de estimación 
de parámetros que de otra forma serán inalcanzables, por la complejidad e intensidad 
del cálculo ¡nvolucrado.Trabajos como [1 ], ilustran este punto en el contexto del manejo 
de grandes bases de datos multinivel longitudinales. 

En muchos problemas existe una relación inherente entre dos o más vari- ables, y 
resulta necesario explorar la naturaleza de esta relación. El análisis de regresión es una 
t'ecnica estadística para el modelado y la investigación de la relación entre dos o más 
variables. Unas aplicaciones generales serían: líneas de tendencia en series de tiempo, 
relaciones causales en medicina, mod- elos econom'etricos, entre otros [2]. 

R es un lenguaje y entorno de programación para análisis estadístico y gráfico. Se trata 
de un proyecto de software libre, resultado de la implementación GNU del premiado 
lenguaje S. R y S-Plus -versión comercial de S- son, probablemente, los dos lenguajes 
más utilizados en investigación por la comunidad estadística, siendo además muy 
populares en el campo de la investigación biomédica, la bioinformática y las 
matemáticas financieras. A esto contribuye la posibilidad de cargar diferentes bibliotecas 
o paquetes con finalidades específicas de cálculo o procedimientos gráficos [3]. 

Stata es un paquete de software estadístico creado en 1985 por StataCorp. Es 
utilizado principalmente por instituciones académicas y empresariales dedicadas a la 
investigación, especialmente en economía, sociología, ciencias políticas, biomedicina 
y epidemiología. Stata permite, entre otras funcionalidades, la gestión de datos, el 
análisis estadístico, el trazado de gráficos y las simulaciones [4]. 

El objetivo principal de este trabajo es describir la implementación y sintaxis de un 
conjunto de comandos paralelos a la oferta de Stata, a fin de facilitar el uso de R para 
quienes están familiarizados o vienen de un entorno en el que se usaba principalmente 
Stata. Estos comandos se escogieron luego de analizar la oferta de modelos de regresión 
tanto en Stata como en R. La sección 2 de este trabajo ilustra el modelo teórico de cada 
procedimiento contenido en RegUtils. Luego, en la sección 3 se describe brevemente 
los pasos para la instalación y uso de RegUtils. La sección 4 presenta los resultados de la 
implementación de RegUtils donde se evidencia la equivalencia entre RyStata. Finalmente, 
el trabajo concluye presentando las conclusiones y posibles desarrollos posteriores. 

MARCO TEÓRICO 

Se han revisado 35 comandos Stata (ver anexo 1), 5 de ellos (14%) no tu- vieron una 
equivalencia directa en R. Estos son: areg, comando que aborda los modelos de 
regresiones lineales de grandes conjuntos en variables binarias, boxcox, es un 
comando que maneja modelos de regresión con sus transformaciones, eivreg se 
utiliza para modelos de regresión de errores en las variables, etregress, maneja 
modelos de regresión lineal con efectos de tratamiento endógeno, i vtobi t se usa 
para la estimación de modelos de regresión tobit con variables endógenas. 
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Regresión Lineal con conjuntos grandes de variables binarias (a r eg) 

Descripción 

Este modelo se utiliza cuando se desea ajustar un modelo de regresión lineal que 
tenga factores dentro del conjunto de variables explicativas de modo que el ajuste 
implique el uso de un gran número de variables binarias al momento de generar la 
matriz de diseño. 


Modelo 

Suponga que desea estimar una regresión con un gran número de variables binarias a 
partir de n individuos: 

y = X i 0 + d 1 7 1 + d 2 72 + ... + d k 7 fc + e 0 ) 


donde y es de dimensión n X 1, X (de dimensión n X p donde p es el número de 
columnas de la matriz de diseño) es la matriz de variables explicativas (sin incluir 
las variables binarias), d. son las variables binarias, 7. son los coeficientes de las variables 
binarias y e es el error [5]. 

Modelos de Regresión con transformaciones de Box Cox (boxcox) 

Descripción 

Este modelo se utiliza para estimar -usando el método de máxima verosimilitud- 
ios parámetros de regresión de variables a las cuales se les ha aplicado la 
transformación de Box-Cox. 

Modelo 

En su trabajo seminal, [6] proponen una transformación de los datos que es 
útil para reducir el sesgo, estabilizar la varianza y concebir que los datos tengan una 
distribución más parecida a una normal, entre otras [7]. De entre los modelos Ihsonly, 
rhsonly, lombdo y theto que ofrece Box-Cox, para el ejemplo se utilizó el modelo theta: 

ifp — Po + PlX$ + &2%2j + ' • • + Pk%kj + ll z lj + 72^2 j + ' ' ' + 7 l z lj + e j ® 

donde e ~ TV (0, o 2 ), y está sujeta a una transformación Box-Cox con parámetro 
0 y cada x v x 2 ,.. ., x k son transformadas por Box-Cox con parámetro X. Las variables z ]t z 2 , 
... Zj son covariables no transformadas [4]. 

Modelos de regresión con errores en las variables (ei vreg) 

Descripción 

Este modelo implica el ajuste de regresiones en las cuales una o más variables 
independientes son medidas con ruido aditivo. El sesgo introducido por este ruido trata 
de ser compensando mediante el uso de un coeficiente de confiabilidad. 
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Modelo 

Si una covariable del modelo tiene un error de medición, una regresión tradicional no 
estimaría adecuadamente su efecto. Además, los coeficientes de las demás covarlables 
del modelo podrían estar sesgados debido a la presencia en el modelo de esa variable. 
Se puede ajustar el sesgo si se conoce la conflabilldad ( reliability ): 

...... „ noisevariance 

reliability = 1- - - : -. ^ 

total variance 


Esto es, dado el modelo 


y = X/3 + u 


(4) 


para alguna variable x. en X, x. es observada con error, x. = x* + e y la varianza de ruido 
es la varianza de e. La varianza total es la varianza de x. [4] 


Modelos de regresión lineal con efectos de tratamiento endógeno 

(etregress) 

Descripción 

Este modelo estima los parámetros de una regresión aumentada con una variable 
binarla endógena, donde el principal objetivo generalmente es parámetro que captura 
el efecto promedio en el tratamiento (average treatment effect - ATE). Esta variable 
endógena debe estar correlacionada con el tratamiento pero no con el error ni las 
variables explicativas del modelo principal. 


Modelo 

El modelo de regresión de efectos de tratamiento endógeno está compuesto de una 
ecuación para el resultado y. y una ecuación para el tratamiento endógeno t f 

Vi = x.i/3 + Stj + tj (5) 




si wj 7 + uj > 0 
en otro caso 


( 6 ) 


Donde x. son las covariables del modelo principal, w. son covarlables usadas para 
modelar el tratamiento, y los términos de error e. y ujtlenen una distribución normal 
blvarlada con media cero y matriz de covarlanza: 

O 2 per = X] (7) 

_ per = A 1 J 

Las covariables x. y w. son exógenas, esto es, no están correlacionadas con el término 
de error [4]. 
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Modelo 

El modelo es: 

y*u = y2 i/3 + X|,A + Ui 

(8) 


y 2 ¿ = x H r 1 + x 2 ¿r 2 + vi 

(9) 


donde /' = 1 A/; y 2¡ es un vector 1 x p de variables endógenas; x Vi es un 

vector 1 x k 1 de variables exógenas; x 2¡ es un vector 1 x k 2 de instrumentos 
adicionales; y la ecuación y 2¡ está escrita en forma reducida. El modelo supone que 
~ N (0). (3 y A son vectores de parámetros instrumentales, r i y T 2 son 
matrices de parámetros de forma reducida, y es observada en forma censurada [7]. 

INSTALACIÓN 

Como se ha mencionado, el anexo 1 contiene la información de todos los 
comandos investigados y sus paralelos entre Stata y R. La tabla 7 muestra los 
cornados que han sido desarrollados exclusivamente en RegUtils. 


Tabla 1 . Comandos implementados en RegUtils. Fuente: [3] y [4]. Elaboración propia 


1 Comando en Stata 

Comando en R 

Descripción 1 

areg 

alm 

Ajusta regresiones con variables dummy 

boxcox 

boxcox. r 

Modelos de regresión Box-Cox 

eivreg 

eivlm 

Regresión con errores en las variables 

etregress 

etreg 

Regresión lineal con efectos endógenos 

ivtobit 

ivtobit 

Regresión tobit con variables endógenas 


Modelo de regresión tobit con variables endógenas (i vtobi t) 

Descripción 

Corresponde a modelos tobit donde una o más de las variables regresoras son 
determinadas endógenamente. 


Actualmente el paquete se encuentra en el repositorio Github: https: 

//github.com/bolimorales/RegUtils. Para utilizarlo se deben realizar los siguientes pasos: 

1. Dependencias: Reguti 1 s depende de los paquetes MaxLi k [8], Formula [9], 
car [10], sandwi ch [11]ycensReg [12]. Por lo tanto, es necesario instalar 
estos paquetes previamente. 

2. Instalar el paquete devtools [13]. Entre otras cosas, este paquete permite 
instalar paquetes disponibles en el repositorio GitHub. 

3. Ejecutar los siguientes comandos: 

(a) 1 i brary (devtool s) 

(b) i nstal 1 gi thub(“bol i moral es/Regliti 1 s”) 

4. El comando 1 i brary (RegUti 1 s) le permite usar el paquete 
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Como es usual en los paquetes de R, se puede acceder a la ayuda de cada una de las 
funciones de la tabla 7. Por ejemplo, para acceder a la ayuda de et reg se ejecuta: 

hel p(etreg). 

ESTIMACIÓN DE MODELOS 

A continuación se presentan los resultados obtenidos de cada una de las funciones 
del paquete Regllti 1 s. Note que se mantiene consistencia con el marco teórico. 
Es decir, cada uno de los modelos presentados en la sección 2 es ilustrado mediante 
ejemplos y su respectivo contraste entre R y Stata. 

Regresión Lineal con conjuntos grandes de variables binarias (areg) 

Ejemplo 

Se dispone de un conjunto de datos que describen las características de 74 autos. Las 
variables de interés se muestran en la tabla 2: 


Tabla 2. Datos para la regresión con variables binarias. Fuente: [4]. Elaboración propia. 


1 Variable 

Descripción 

Tipo 

mpg 

millas por galón 

Numérica 

Weight 

peso en libras 

Numérica 

gearratio 

proporción entre plato y piñón 

Numérica 

rep78 

medida (de 1 al 5) del registro de reparaciones del 
auto donde 1 es la peor y 5 es la mejor 

Factor 


Se desea explicar las millas por galón en función de las demás variables presentadas 
en la tabla anterior. Una forma de resolver el problema es ajustar un modelo de 
regresión tradicional, lo cual precisaría de 4 niveles para el factor rep78. Sin 
embargo, areg permite, en lugar de realizar una prueba f para cada coeficiente, 
hacer una prueba F conjunta para todos los niveles de un determinado factor. Este 
proceso permite trabajar de forma eficiente sobre conjuntos de datos donde la 
cantidad de variables binarias generadas es muy grande, pero tambi 'en nos permite 
centrar el análisis en un conjunto de variables independientes al margen de los 
grupos creados por las variables binarias [5]. 

Aplicación 

Aquí se ajusta el modelo descrito en la parte anterior tanto en Stata (figura 1 a) como en 
R (figura 1 b). 
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Figura 1 . Resultados de la regresión con variables binarias en Stata y R. Fuente y elaboración: autores 


Cali: 

almCformula - mpg ~ weight + gear.ratio + rep78, data - datos, 
absorto = ”rep78") 


. areg mpg weight gear.ratio, absorbírep78) 


Linear regression, absorbing indicators Number of obs = 69 

F( 2, 62) = 41.64 

Prob > F = 0.0000 

R-squared = 0.6734 

AdJ R-squared = 6.6418 

Root HSE = 3.5169 


Coef. Std. Err. 


P>|t| [95% Conf. Interval] 


weight -.6651631 .6669266 

gear.ratio .961478 1.565552 

_COhS 34.65889 7.656383 


rep78 


F{4, 62) = 


-5.54 


6.58 

4.83 


6.666 
6.567 
0.666 


1.117 6.356 


-.6669433 -.663263 

-2.228615 4.636971 

19.95338 48.1644 


(5 categories) 


Residuals: 

C.U 

Min -8.6978 

1Q -1.7018 

Median -0.3827 
3Q 0.9711 

Max 11.7650 

Observations: 69L 
Coefficients: 

Estímate Std. Error t valué Pr(>ltl) 

CIntercept) 34.0588892 7.0105697 4.858 8.40e-06 *** 

weight -0.0051031 0.0009206 -5.544 6.48e-07 »** 

gear.ratio 0.9014780 1.5655516 0.576 0.567 

Signif. codes: 0 '***' 0.001 0.01 0.05 0.1 ‘ ’ 1 

Residual standard error: 3.511 on 62 degrees of freedom 
Múltiple R-Squared: 0.6734, Adjusted R-squared: 0.6418 
Wald test: 83.28 on 2 DF, p-valué: < 2.2e-16 


(a) Stata 


(b)R 


Note que el comando especifica absorb(rep78), esto indica que se aplica una 
prueba F sobre el conjunto de los niveles de la variable rep78. Su valor p indica que, en 
conjunto, los niveles de rep78 no son significativos a un a = 0.05. Es decir que los 
niveles de rep78 no influyen en las millas por galón. Además, los coeficientes de las 
demás variables se ajustan en forma estándar. 

El resultado puede escribirse de la siguiente manera: 

mpg = 34.058 - 0.0051 weight + 0.901 gear_ratio. (10) 

Se aprecia que los niveles de la variable rep78 no se imprimen debido al método 
utilizado para obtener más eficiencia, es decir, la prueba F. Note que los coeficientes 
para weight,georrotio y la constante son exactamente los mismos al igual que el error 
estándar, valores t y, consecuentemente, el valor p (ver tablas de coeficientes). 
En la salida estándar de R no se reportan los intervalos de confianza para los 
coeficientes pero estos se pueden obtener a través del comando confi nt (usando 
el modelo guardado en f/tl) con el que se obtiene los mismos valores (con una 
pequeña diferencia en el intercepto). 

El primer estadístico F (igual a 41.64) mostrado en la salida de Stata corresponde al 
Chi-cuadrado del test de Wald (83.28) (ubicado al final de la salida de R en la figura 
1 b), dividido para los grados de libertad, es decir 41.64 = 83.28/2. En ambos casos el 
Chi-cuadrado por lo que la conclusión de la prueba es la misma. 

También se observa que coinciden el R 2 , el R 2 ajustado y los errores estándar 
residuales (MSE) = 3.511, los cuales suelen utilizarse para evaluar la bondad de ajuste 
de la regresión. La prueba F para rep78, no se presenta de forma estándar en R, pero 
se puede calcular mediante el comando anova con el que se obtiene el mismo valor, 
esto es, 1.117. 


14 






Morales-Oñate / Jimenez-Mosquera / Méndez (2019) 


Regresión con transformaciones de Box Cox (box- cox) 

Ejemplo 

A continuación se utiliza un subconjunto de datos de la Segunda Encuesta Nacional de 
Salud y Nutrición (NHANES II), para crear un modelo de estimación del nivel individual 
de presión arterial. Las variables a utilizar en el modelo se muestran en la tabla 3. 


Tabla 3. Datos para la regresión con transformaciones de BoxCox. Fuente: [4]. Elaboración propia 


1 Variable 

Descripción 

Tipo i 

bpdiast 

Presión arterial 

Numérica 

bmi 

índice de masa corporal 

Numérica 

tcresult 

Colesterol sérico 

Numérica 

oge 

Edad 

Numérica 

sex 

Sexo 

Factor 


Con el objeto de corregir la no linealidad en la relación con las variables se calcula 
la transformación de Box-Cox para las variables bmi, y tcresult, así como la 
transformación de la variable dependiente dentro del modelo de regresión. 

Aplicación 

Para estimar este modelo se utiliza en R el comando boxcox, parte del paquete 
RegUtils; en Stata se utiliza el comando boxcox. Estos comandos permiten 
estimar varios tipos de modelos que incluyen el modelo lambda, donde se usa 
el mismo parámetro de transformación sobre todas las variables, modelos theta, 
que utilizan un parámetro diferente para la variable independiente, y modelos que 
mezclan variables transformadas y no transformadas. Los dos comandos permiten 
especificar un subconjunto de variables independientes a las cuales no se aplicará la 
transformación. En la figura 2b se muestran los resultados del ejemplo. 
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Figura 2. Resultados de la regresión con transformaciones de BoxCox en Stata y R. 
Fuente y elaboración: autores 


Log Ukelihood = -39774.987 


Number of obs = 19351 
LR chi2(5) = 2515.99 
Prob > chi2 = e.eee 


bpdiast 


Coef. 


Std. Err. 


[95% Conf. Interval] 


/lambda .6383286 .1577661 4.95 e.eee .3291245 .9475327 

/theta .1988197 .8454688 4.38 6.666 .1698261 .2878193 


Estimates of scale-variant p 


Coef. chi2(df) P>chi2(df) df of chl2 


.663811 319.866 

-.1954887 243.284 

5.835555 




Test Restricted 

H0: log Ukelihood chi2 Prob > chi2 


Cali: 

boxcox.rCformula = bpdiast - bmi + tcresult + age + sex, data = datos, 
noTrans = cC'age", "sex")) 

Box-Cox Estimates : 

Estimóte Std.Err z Pr(>ltl) 
theta 0.198821 0.047506 4.1852 1.425e-05 *** 
lambda 0.638333 0.069578 9.1744 < 2.2e-16 *** 


Signif. codes: 0 0.001 •**’ 0.01 **’ 0.05 0.1 ‘ * 1 


LR Test: 

X2 - 2515.0, df = 5, P(> X2) - 0.0 


Coefficients : 

Estimóte 
Cintercept) 5.8356e+00 
bmi 8.7203e-02 
tcresult 4.7339e-03 
age 3.8111e-03 
sex -1.0549e-01 


Chi.sq df Chi.sq Pr(>ltl) 

NA NA NA 

1.3692e+03 1 < 2.2e-16 *** 

8.1177e+01 1 < 2.2e-16 *** 

3.1906e+02 1 < 2.2e-16 *** 

2.4328e+02 1 < 2.2e-16 *** 


theta=lambda = -1 -49162.898 775.82 6.669 
theta=lambda = 0 -39799.945 31.92 0.909 
theta=lambda = 1 -39928.606 307.24 6.006 


Signif. codes: 0 ■***’ 0.001 *•*’ 0.01 0.05 *.’ 0.1 ‘ ’ 1 

log likehood = -39775.0 


(a) Stata (b) R 

Se escribe los resultados de la siguiente manera: 

^(0.198) = 5 83 + o O87bmi (0.638) + 0.0047tcresult * 0 - 638 ) + 0.003age - 0.105sex (11) 

Se aprecia que todos los coeficientes son significativos a un a = 0.05 como se verifica 
en la figura 2b. Los coeficientes para lambda y theta coinciden, así como sus pruebas de 
hipótesis. Se presenta además el mismo número de observaciones, la misma estimación 
parasigmayde la verosimilitud, -39775. Para realizarla prueba del ratio de verosimilitudes 
en R se puede usar el comando 1 ogl_i k. rati o. test del paquete RegUtils. 

Regresión con errores en las variables (ei vreg) 

Ejemplo 

Se utiliza datos de una industria automotriz. Se asume que el peso de los autos es 
medido con ruido aditivo que puede ser aproximado por una confiabilidad de 0.85. Bajo 
este supuesto se realiza un modelo de regresión lineal simple para el precio utilizando 
las variables que se detallan en la tabla 4: 

Tabla 4. Datos para la regresión con errores en las variables. Fuente: [4].EIaboración propia. 


1 Variable 

Descripción 

Tipo 1 

pnce 

Precio 

Numérica 

weight 

peso en libras 

Numérica 

foreign 

Extranjero 

Binaria 
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Aplicación 

En Stata el comando eivreg ajusta modelos de regresión con errores en las 
variables. En R se implemento el comando eivlm como parte del paquete 
RegUtils. En la figura 3 se muestran los resultados en Stata y R. 


Figura 3. Resultados de la regresión con errores en las variables en Stata y R. 
Fuente y elaboración: autores 


. eivreg príce weight foreign, rfweight .85) 


Cali: 

eivlm(formula - price - weight + foreign, data - datos, reí - c(0.85, 

1 » 


assumed 

variable reliability 


weight 0.8500 

* 1.0000 


Errors-in-variables regression 


Number of obs = 74 
F( 2, 71) = 50.37 
Prob > F = e.0000 
R-squared = 0.6483 
Root MSE = 1773.54 




Coef. 


weight 

foreign 


4.31985 

4637.32 

-8257.017 


Std. Err. 


.431431 

624.5362 

1452.086 


t P>|t| 


10.01 0.000 
7.43 0.000 

-5.69 0.000 


[95% Conf. Interval] 


3.459601 5.180099 

3392.03 5882.609 

-11152.39 -5361.639 


Residuals: 

[. 1 ] 

Min -3902.6 

1Q -1522.1 

Median -492.5 
3Q 1062.5 

Max 5909.6 

Coefficients: 

Estimóte Std. Error t valué Pr(>ltl) 

(Intercept) -8257.0172 1452.0862 -5.686 2.68e-07 •** 

weight 4.3198 0.4314 10.013 3.25e-15 «** 

foreign 4637.3196 624.5362 7.425 1.94e-10 *** 

Signif. codes: 0 *•••’ 0.001 •**’ 0.01 0.05 *.* 0.1 • ’ 1 

Residual standard error: 1774 on 71 degrees of freedom 
Múltiple R-squared: 0.6483, Adjusted R-squared: 0.6384 
F-statistic: 65.45 on 2 and 71 DF, p-value: < 2.2e-16 


(a) Stata (b) R 

Se puede escribir los resultados de la siguiente manera: 

price = -8257.01 + 4.319weight + 4637.3foreign. (12) 

Los coeficientes habrían sido menores de no haber tomado en cuenta la medición 
con error de la variable weight (Ver [14] para más detalles de este tipo de modelos). 
El coeficiente de confiabilidad afecta el coeficiente y el error estándar obtenidos para 
la variable peso. Además se observa que los coeficientes de los parámetros y las pruebas 
de hipótesis coinciden. 

Modelos de regresión lineal con efectos de tratamiento endógeno 

(etregress) 

Ejemplo 

Se utiliza un subconjunto de la base de datos sobre ingresos de mujeres de Estados 
Unidos en 1972 con edades entre 18 y 30 años, para modelar los efectos promedios 
en el tratamiento para la variable unión (pertenece o no a un sindicato) sobre el ingreso. 
Las variables a ser incluidas en el modelo se detallan en la tabla 5. 

Tabla 5. Datos para la regresión lineal con efectos de tratamiento endógenos. Fuente: [4]. 


1 Variable 

Descripción 

Tipo 1 

wage 

Ingreso 

Numérica 

grade 

Años de instrucción 

Numérica 

smsa 

Variable indicativa de pertenencia a un distrito estadístico 

Binaria 

black 

Variable indicativa para Afro-Americanos 

Binaria 

tenare 

Permanencia en el trabajo actual 

Numérica 

south 

Variable indicativa para residencia en el sur 

Binaria 


Elaboración propia 
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aci 

avances 

enciéndase 

ingenierías 


De estas variables se utiliza south, block y tenure para modelar la variable endógena 
unión. 

Aplicación 

Para estimar el modelo se emplea el comando etregress en Stata y el comando 
etreg del paquete RegUtils en R. En la figura 5 se muestran los resultados obtenidos. 


Figure 4. Resultados de la regresión lineal con efectos de tratamiento endógenos en Stata y R. 



+ black + tenure, treot - unión ~ 



Siflnif. codes: 0 0.061 •••• 0.01 ••• 0.05 0.1 ‘ *1 


Ncwton-Raphson maximisotion, 9 iterations 

Log-likeühood: -3651.575 on 13 Of 

üfald test: 693.1 on 6 OF, p-value: < 2.2e-16 


(a) Stata 


(b) R 


Fuente y elaboración: autores 


El modelo ajustado del ejemplo sería: 


wage = —4.35+0.148age+0.420grade+0.911smsa—0.788black+0.152tenure+2.94union 


unión = 


si — 0.885 — 0.580south + 0.455black + 0.087tenure > 0 
en otro caso 


(13) 

(14) 


2.OI 2 -0.574* 2.01 = -1.160 

-0.574*2.01 = -1.160 1 


(15) 


Se observa en la figura 8 que los coeficientes son significativos y que el efecto de 
tratamiento endógeno (coeficiente de unión) es 2.94 

Modelo de regresión tobit con variables endógenas (i vtobi t) 

Ejemplo 

Se utiliza a continuación datos de ingresos de un grupo de mujeres asumiendo que 
todas las mujeres que deciden no trabajar reciben $ 10,000 en pagos de asistencia 
social y la manutención de los hijos. En el modelo se incluirán las variables que se 
muestran en la tabla 6: 
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Tabla 6. Datos para la regresión tobit con variables endógenas. Fuente: [4]. Elaboración propia. 


1 Variable 

Descripción 

Tipo 1 

femjnc 

Ingreso 

Numérica 

fem_educ 

Años de instrucción formal 

Numérica 

kids 

Número de hijos 

Numérica 

otherjnc 

Otros ingresos del hogar 

Numérica 

mole_educ 

Años de instrucción formal del esposo 

Numérica 


En el modelo se considera la varibale otherjnc como endógena, motivo por la cual se 
utiliza la variable mole_educ como variable instrumental. 

Aplicación 

Para estimar el modelo se utiliza el comando ivtobit de Stata. En R se usa el comando 
del mismo nombre implementado como parte del paquete RegUtils. La figura 5 
muestra los resultados obtenidos. 

Figura 5. Resultados de la regresión tobit con variables endógenas en Stata y R. Fuente y elaboración: autores 


Tobit model with endogenous regressors 
Log liketihood = -3226.8845 


Number of obs = 589 
Wald chi2(3) = 117.42 
Prob > chi2 = 8.0009 


Coef. Std. Err. z P>|z| (95% Conf. Interval] 




-.9845399 

3.272391 

-3.312357 

19.24735 


/alpha 

/Ins 

/Inv 


.2987654 

2.874831 

2.813383 


s 17.78826 

V 16.66621 


.1329762 

.3968788 

.7218628 

7.372391 


.1379965 

.8586672 

.8316228 


.897228 

.5278318 



2.11 8.835 
56.72 8.888 
88.97 8.888 


-1.165168 -.6439114 

2.494538 4.858243 

-4.727182 -1.897532 

4.797725 33.69697 


.8282972 .561233S 
2.774725 2.973337 
2.751484 2.875363 


16.83422 19.5S707 
15.66461 17.73186 


Instrumented: other_inc 
Instruments: fem_educ kids male_educ 


Wald test of exogeneity (/alpha = 0): chi2(l) = 4.44 Prob > chi2 = 8.8351 

Obs. summary: 272 left-censored observations at fem_inc<=10 

228 uncensored observations 
8 right-censored observations 


Cali: 

ivtobit(formula - fem_inc ~ other.inc + fem_educ + kids I male_educ + 
fem_educ + kids, data = datos, left = 10) 

Observations: 

Total Left-censored Uncensored Right-censored 

500 272 228 0 

Coefficients: 

Estimóte Std. error t valué Pr(> t) 

CIrtercept) 19.2528 6.9474 2.771 0.00SS8 ** 

other.inc -0.9047 0.1309 -6.913 4.75e-12 *** 

fem_educ 3.2727 0.4170 7.849 4.20e-15 *** 

kids -3.3128 0.6778 -4.888 1.02e-06 *** 

sigma.u 18.3606 1.1331 16.204 < 2e-16 *** 

Signif. codes: 0 ***** 0.001 0.01 0.05 0.1 ‘ ’ 1 

BHHH maximisation, 6 iterations 

Return code 2: successive function valúes within tolerance limit 
Log-likelihood: -3226.085 on 7 Of 

Wald test: 103.8 on 3 DF, p-value: < 2.2e-16 

alpha: 0.2909144 
Sigma: 

C.i] [,z] 

[1,] 337.11146 80.80733 
[2,] 80.80733 277.77013 


(a) Stata 


(b)R 


El modelo estimado es: 

fem_inc = 19.24 — 0.9045other_inc + 3.27fem_educ — 3.31kids (16) 


En ambos comandos el estimador se calcula utilizando el método de máxima 
verosimilitud. Todas las variables del modelo son estadísticamente significativas a un 
a = 0.05 y se aprecia que son los mismos valores. 
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¡ici C0NCLUSI0NES 

encfencíale El uso del paquete RegUtils, sin duda es una herramienta muy útil para usuarios que 
m9emenas desean migrar o usar simultáneamente R y Stata dado que permite obtener modelos 
similares a aquellos ajustados con los comandos de Stata, con una sintaxis que resulta 
muy fácil de equiparar con la de Stata. 

El paquete facilita que estos modelos se integren con otras funcionalidades y comandos 
de R. Sin embargo, se recomienda que una vez que se alcance el nivel adecuado de 
familiaridad con R, se explore otros paquetes y rutinas propias del lenguaje que, sin 
tener las mismas salidas de Stata pueden conducirnos al ajuste de modelos de utilidad. 

Utilizar los comandos implementados en R para el manejo de estos modelos conlleva 
algunas ventajas sobre el software propietario, se podría mencionar entre estas el hecho 
de que no tendría costo para el usuario. Además, R es versátil para el desarrollo de rutinas, 
acceso al código para aprender de él y modificarlo en función de las necesidades del 
investigador y facilidades para el trabajo colaborativo al poder compartir análisis sin 
preocupación de que el receptor disponga de las licencias. 

Como todos los proyectos realizados en R, se recomienda que todo usuario interesado 
se motive en generar retroalimentación para su perfeccionamiento. Por ejemplo podría 
colaborar con paquetes o correcciones de paquetes existentes en el Comprehensive R 
Archive NetWork -CRAN. También se puede contribuirá mejorar las rutinas del paquete 
RegUtils, ya que el código se encuentra disponible en el sitio github. 
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ANEXO 

Tabla 7. Cuadro comparativo de comandos entre Stata y R. Fuente: [20] y [22]. Elaboración propia 


Comando en 
Stata 

Librería 

Comando en R 

Descripción 

areg 

RegUtils[18] 

alm 

Ajusta regresiones con variables dummy 

arch 

rugarch[8] 

ugarchFit 

Modelos de regresión con errores ARCFI 

arima 

fArma[28] 

armaFit 

Modelos ARIMA 

boxcox 

RegUtils 

boxcox.r 

Modelos de regresión Box?Cox 

cnsreg 

stats[20] 

Im 

Regresión lineal restringida 

eivreg 

RegUtils 

eivlm 

Regresión con errores en las variables 

etregress 

RegUtils 

etreg 

Regresión lineal con efectos endógenos 

frontier 

frontier[4] 

sfa 

Modelos estocásticos frontier 

gmm 

gmm[3] 

gmm 

método generalizado de momentos de 
estimación 

heckman 

sampleSelection[24] 

selection 

Modelos de selección Fleckman 

intreg 

intReg[23] 

intReg 

Regresión intervalo 

ivregress 

AERfl 3] 

ivreg 

Regresión de variables instrumentales 
simples 

ivtobit 

RegUtils 

ivtobit 

Regresión tobit con variables endógenas 

newey 

sandwich [29] 

NeweyWest 

Regresión de Newey ?West con errores 
estándar 

ni 

stats 

nls 

Estimación no lineal de mínimos cuadrados 

nlsur 

systemfit[10] 

ni systemfit 

Estimación de sistemas de ecuaciones no 
lineales 

qreg 

quantreg[14] 

rq 

Regresión cuantil (incluye mediana) 

reg3 

systemfit 

systemfit 

Regresión de mínimos cuadrados en tres 
estados (3SLS) 

rreg 

MASS[25] 

rlm 

Un tipo de regresión robusta 

gsem 

lavaan[21] 

cfa 

modelos de ecuaciones estructurales 
generalizadas 

sem 

lavaan 

cfa 

modelos de ecuaciones estructurales lineales 

sureg 

systemfit 

systemfit 

regresión aparentemente no relacionada 

tobit 

censReg[9] 

censReg 

Regresión tobit 

truncreg 

truncreg[5] 

truncreg 

Regresión truncada 

xtabond 

plm[17] 

pgmm 

Estimación de datos de panel dinámicos de 
Arellano?Bond 

xtdpd 

plm 

pgmm 

Estimación de datos de panel dinámicos 
lineales 

xtfrontier 

frontier 

sfa 

Modelos frontier de datos de panel 
dinámicos 

xtgls 

panelAR[12] 

panelAR 

Modelos GLS de datos de panel 

xthtaylor 

plm 

pht 

Modelos de estimación de errores de 
Flausman?Taylor 

xtintreg 

plm 

survreg 

Modelos de regresión de datos de panel en 
intervalos 

xtivreg 

plm 

plm 

Regresión de datos de panel con variables 
instrumentales (2SLS) 

xtpcse 

panelAR 

panelAR 

Regresión lineal con errores estándar 

xtreg 

plm 

plm 

Modelos lineales con efectos aleatorios 

xtregar 

nlme[19] 

Ime 

Modelos lineales con efectos aleatorios AR(1) 

xttobit 

censReg 

censReg 

Modelos tobit de datos de panel 
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